Attention is All You need
RNN/CNNを使わず翻訳のSOTAを達成した話。Attentionを基礎とした伝搬が肝となっている。単語/位置のlookupから入力を作成、Encoderは入力+前回出力からAを作成しその後位置ごとに伝搬、DecoderはEncoder出力+前回出力から同様に処理し出力している
実装・解説へのリンク多数
Submitted on 12 Jun 2017 (v1), last revised 6 Dec 2017 (this version, v5)